// 小工具：ceil 除（THCCeilDiv 的替代）
static inline int ceil_div(int a, int b) { return (a + b - 1) / b; }

// 取当前流（如果你已经在 launch 写了 getCurrentCUDAStream，可以不封装）
static inline cudaStream_t current_stream() {
  return at::cuda::getCurrentCUDAStream().stream();
}